Annotation of multimedia data by humans is time-consuming and costly, while reliable automatic generation of semantic metadata is a major challenge. We propose a framework to extract semantic metadata from automatically generated video captions. As metadata, we consider entities, the entities' properties, relations between entities, and the video category. We employ two state-of-the-art dense video captioning models with masked transformer (MT) and parallel decoding (PVDC) to generate captions for videos of the ActivityNet Captions dataset. Our experiments show that it is possible to extract entities, their properties, relations between entities, and the video category from the generated captions. We observe that the quality of the extracted information is mainly influenced by the quality of the event localization in the video as well as the performance of the event caption generation.
translated by 谷歌翻译
The goal of this paper is to detect objects by exploiting their interrelationships. Rather than relying on predefined and labeled graph structures, we infer a graph prior from object co-occurrence statistics. The key idea of our paper is to model object relations as a function of initial class predictions and co-occurrence priors to generate a graph representation of an image for improved classification and bounding box regression. We additionally learn the object-relation joint distribution via energy based modeling. Sampling from this distribution generates a refined graph representation of the image which in turn produces improved detection performance. Experiments on the Visual Genome and MS-COCO datasets demonstrate our method is detector agnostic, end-to-end trainable, and especially beneficial for rare object classes. What is more, we establish a consistent improvement over object detectors like DETR and Faster-RCNN, as well as state-of-the-art methods modeling object interrelationships.
translated by 谷歌翻译
The 1$^{\text{st}}$ Workshop on Maritime Computer Vision (MaCVi) 2023 focused on maritime computer vision for Unmanned Aerial Vehicles (UAV) and Unmanned Surface Vehicle (USV), and organized several subchallenges in this domain: (i) UAV-based Maritime Object Detection, (ii) UAV-based Maritime Object Tracking, (iii) USV-based Maritime Obstacle Segmentation and (iv) USV-based Maritime Obstacle Detection. The subchallenges were based on the SeaDronesSee and MODS benchmarks. This report summarizes the main findings of the individual subchallenges and introduces a new benchmark, called SeaDronesSee Object Detection v2, which extends the previous benchmark by including more classes and footage. We provide statistical and qualitative analyses, and assess trends in the best-performing methodologies of over 130 submissions. The methods are summarized in the appendix. The datasets, evaluation code and the leaderboard are publicly available at https://seadronessee.cs.uni-tuebingen.de/macvi.
translated by 谷歌翻译
With the rising adoption of Machine Learning across the domains like banking, pharmaceutical, ed-tech, etc, it has become utmost important to adopt responsible AI methods to ensure models are not unfairly discriminating against any group. Given the lack of clean training data, generative adversarial techniques are preferred to generate synthetic data with several state-of-the-art architectures readily available across various domains from unstructured data such as text, images to structured datasets modelling fraud detection and many more. These techniques overcome several challenges such as class imbalance, limited training data, restricted access to data due to privacy issues. Existing work focusing on generating fair data either works for a certain GAN architecture or is very difficult to tune across the GANs. In this paper, we propose a pipeline to generate fairer synthetic data independent of the GAN architecture. The proposed paper utilizes a pre-processing algorithm to identify and remove bias inducing samples. In particular, we claim that while generating synthetic data most GANs amplify bias present in the training data but by removing these bias inducing samples, GANs essentially focuses more on real informative samples. Our experimental evaluation on two open-source datasets demonstrates how the proposed pipeline is generating fair data along with improved performance in some cases.
translated by 谷歌翻译
野火越来越多地影响环境,人类健康和安全。在加利福尼亚前20名野火中,2020 - 2021年的野火比上世纪的燃烧更大。加利福尼亚的2018年野火季节造成了1485亿美元的损失。在数百万受影响的人中,由于不足的警报手段,残疾人(约占世界人口的15%)受到不成比例的影响。在该项目中,基于先进的机器学习体系结构开发了多模式野火预测和个性化预警系统。从2012年到2018年的环境保护局和历史野火数据的传感器数据已编译,以建立一个全面的野火数据库,即同类最大的数据库。接下来,设计了一种新型的U-Convolutional-LSTM(长短期记忆)神经网络,设计了一种特殊的体系结构,可从连续的环境参数中提取关键的空间和时间特征,以指示即将来临的野火。环境和气象因素被纳入数据库,并分类为主要指标和落后指标,分别与野火构想和传播的风险相关。此外,地质数据还用于提供更好的野火风险评估。这种新颖的时空神经网络使用传统的卷积神经网络实现了> 97%的精度,而左右的卷积神经网络则达到了约76%,成功地预测了2018年2018年最具破坏性的野火,提前5-14天提前5-14天。最后,提出了一种个性化的预警系统,该警告系统针对有感觉障碍或呼吸系统加剧条件的人量身定制。该技术将使消防部门在袭击之前预测和防止野火,并为处于危险中的个人提供早期警告以更好地准备,从而挽救生命并减少经济损失。
translated by 谷歌翻译
模拟湍流的模拟,尤其是在大气中云的边缘,是一项固有的挑战。迄今为止,执行此类实验的最佳计算方法是直接数值模拟(DNS)。 DNS涉及在三维空间中的离散网格盒上解决流体流的非线性部分微分方程,也称为Navier-Stokes方程。这是一个有价值的范式,它指导了数值天气预测模型来计算降雨形成。但是,对于天气预报社区的实用实用程序,不能为DNS执行DNS。在这里,我们介绍了DeepClouds.ai,这是一个3D-UNET,该Unet模拟了上升的云DNS实验的输出。通过将内部3D立方体映射到完整的3D立方体,从DNS离散化的网格模拟的输出中映射到完整的3D立方体来解决DNS中域大小的问题。我们的方法有效地捕获了湍流动力学,而无需解决复杂的动力核心。基线表明,基于深度学习的仿真与通过各种得分指标衡量的基于部分差异方程的模型相媲美。该框架可用于通过在大气中的大物理领域进行模拟来进一步进一步发展湍流和云流的科学。通过高级参数化方案改善天气预测,这将导致社会福利。
translated by 谷歌翻译
机器学习(ML)模型与它们在分子动力学研究中的有用性相反,作为反应屏障搜索的替代潜力,成功的成功有限。这是由于化学空间相关过渡状态区域中训练数据的稀缺性。当前,用于培训小分子系统上的ML模型的可用数据集几乎仅包含在平衡处或附近的配置。在这项工作中,我们介绍了包含960万密度函数理论(DFT)的数据集过渡1X的计算,对WB97X/6-31G(D)理论水平的反应途径上和周围的分子构型的力和能量计算。数据是通过在10K反应上以DFT运行轻度弹性带(NEB)计算而生成的,同时保存中间计算。我们在Transition1x上训练最先进的等效图形消息通讯神经网络模型,并在流行的ANI1X和QM9数据集上进行交叉验证。我们表明,ML模型不能仅通过迄今为止流行的基准数据集进行过渡状态区域的特征。 Transition1x是一种新的具有挑战性的基准,它将为开发下一代ML力场提供一个重要的步骤,该电场也远离平衡配置和反应性系统。
translated by 谷歌翻译
机器学习(ML)模型与它们在分子动力学研究中的有用性相反,作为反应屏障搜索的替代潜力,成功的成功有限。这是由于化学空间相关过渡状态区域中训练数据的稀缺性。当前,用于培训小分子系统上的ML模型的可用数据集几乎仅包含在平衡处或附近的配置。在这项工作中,我们介绍了包含960万密度函数理论(DFT)的数据集过渡1X的计算,对WB97X/6-31G(D)理论水平的反应途径上和周围的分子构型的力和能量计算。数据是通过在10K反应上以DFT运行轻度弹性带(NEB)计算而生成的,同时保存中间计算。我们在Transition1x上训练最先进的等效图形消息通讯神经网络模型,并在流行的ANI1X和QM9数据集上进行交叉验证。我们表明,ML模型不能仅通过迄今为止流行的基准数据集进行过渡状态区域的特征。 Transition1x是一种新的具有挑战性的基准,它将为开发下一代ML力场提供一个重要的步骤,该电场也远离平衡配置和反应性系统。
translated by 谷歌翻译
为了在多个机器人系统中有效完成任务,必须解决的问题是同时定位和映射(SLAM)。激光雷达(光检测和范围)由于其出色的精度而用于许多SLAM解决方案,但其性能在无特征环境(如隧道或长走廊)中降低。集中式大满贯解决了云服务器的问题,云服务器需要大量的计算资源,并且缺乏针对中央节点故障的鲁棒性。为了解决这些问题,我们提出了一个分布式的SLAM解决方案,以使用超宽带(UWB)范围和探测测量值估算一组机器人的轨迹。所提出的方法在机器人团队之间分配了处理,并显着减轻了从集中式大满贯出现的计算问题。我们的解决方案通过最大程度地减少在机器人处于近距离接近时在不同位置进行的UWB范围测量方法来确定两个机器人之间的相对姿势(也称为环闭合)。 UWB在视线条件下提供了良好的距离度量,但是由于机器人的噪声和不可预测的路径,检索精确的姿势估计仍然是一个挑战。为了处理可疑的循环封闭,我们使用成对的一致性最大化(PCM)来检查循环封闭质量并执行异常拒绝。然后,在分布式姿势图优化(DPGO)模块中将过滤的环闭合与探光仪融合,以恢复机器人团队的完整轨迹。进行了广泛的实验以验证所提出的方法的有效性。
translated by 谷歌翻译
在这项工作中,我们探索如何学习专用的语言模型,旨在学习从文本文件中学习关键词的丰富表示。我们在判别和生成设置中进行预训练变压器语言模型(LMS)的不同掩蔽策略。在歧视性设定中,我们引入了一种新的预训练目标 - 关键边界,用替换(kbir)infifiling,在使用Kbir预先训练的LM进行微调时显示出在Sota上的性能(F1中高达9.26点)的大量增益关键酶提取的任务。在生成设置中,我们为BART - 键盘介绍了一个新的预训练设置,可再现与CATSeq格式中的输入文本相关的关键字,而不是Denoised原始输入。这也导致在关键词中的性能(F1 @ M)中的性能(高达4.33点),用于关键正版生成。此外,我们还微调了在命名实体识别(ner),问题应答(qa),关系提取(重新),抽象摘要和达到与SOTA的可比性表现的预训练的语言模型,表明学习丰富的代表关键词确实有利于许多其他基本的NLP任务。
translated by 谷歌翻译